Ace-Step 1.5

公式の実装

https://github.com/ace-step/ace-step-skillsace-step/ace-step-skills

公式によるコーディングエージェント(Claude Code/CodeX)向けスキル

table:DiT

DiT Model SFT RL CFG Step Refer audio Text2Music Cover Repaint Extract Lego Complete Quality Diversity

acestep-v15-base ❌ ❌ ✅ 50 ✅ ✅ ✅ ✅ ✅ ✅ ✅ Medium High

acestep-v15-sft ✅ ❌ ✅ 50 ✅ ✅ ✅ ✅ ❌ ❌ ❌ High Medium

acestep-v15-turbo ✅ ❌ ❌ 8 ✅ ✅ ✅ ✅ ❌ ❌ ❌ Very High Medium

acestep-v15-turbo-rl ✅ ✅ ❌ 8 ✅ ✅ ✅ ✅ ❌ ❌ ❌ Very High Medium

table:TE

LM Model Pretrain from Pre-Training SFT RL CoT metas Query rewrite Audio Understanding Composition Capability Copy Melody

acestep-5Hz-lm-0.6B Qwen3-0.6B ✅ ✅ ✅ ✅ ✅ Medium Medium Weak

acestep-5Hz-lm-1.7B Qwen3-1.7B ✅ ✅ ✅ ✅ ✅ Medium Medium Medium

acestep-5Hz-lm-4B Qwen3-4B ✅ ✅ ✅ ✅ ✅ Strong Strong Strong

パラメータ数が前モデルより少し減っている

テキストエンコーダー込だと最大では増えている？

https://github.com/ace-step/ACE-Step-1.5/blob/main/docs/ja/Tutorial.md#ace-step-15-%E7%A9%B6%E6%A5%B5%E3%82%AC%E3%82%A4%E3%83%89%E5%BF%85%E8%AA%ADどうやらパラメータが減っている(速度を重視している)のは設計思想的なところが大きいようだ

以下結構長いので一部引用、全体は↑のリンクから

メンタルモデル

人間中心の設計

このモデルはワンクリック生成のためではなく、人間中心の生成のために設計されています。

この違いを理解することが重要です。

ワンクリック生成とは？

プロンプトを入力し、生成をクリックし、いくつかのバージョンを聞いて、良さそうなものを選んで使用します。別の人が同じプロンプトを入力すると、おそらく似た結果が得られます。

このモードでは、あなたとAIはクライアントとベンダーの関係です。明確な目的を持って来て、頭の中に曖昧な期待があり、AIがその期待に近い製品を提供することを望みます。本質的には、Googleで検索したり、Spotifyで曲を探したりするのと大差ありません——カスタマイズが少し増えただけです。

AIはサービスであり、創造的なインスピレーションを与えるものではありません。

人間中心の生成とは？

AIの層を弱め、人間の層を強化する——より多くの人間の意志、創造性、インスピレーションがAIに生命を与える——これが人間中心の生成です。

ワンクリック生成の強い目的性とは異なり、人間中心の生成はより遊びの性質を持っています。それは対話的なゲームのようなもので、あなたとモデルは協力者の関係です。

ワークフローは次のとおりです：いくつかのインスピレーションの種を投げ、いくつかの曲を得て、そこから興味深い方向を選択して反復を続けます——

プロンプトを調整して再生成

Coverを使用して構造を維持し、詳細を調整

Repaintで局所的な変更

Add Layerで楽器の層を追加または削除

この時点で、AIはあなたにとってサービス提供者ではなく、インスピレーションを与えるものです。

要するに「AIに叩き台を作らせる→叩き台の使えそうな所を残して変えたい所を編集指示→AIが編集する→編集したものをベースに更に修整したい所を指示する→AIが編集する→(以降納得するまで繰り返し)」のようなフローを想定しているようだ。

アーキテクチャ

https://gyazo.com/24e946ea4ed800fc2b127a38a935d8f9

1D VAE

48kHzステレオを64次元潜在空間に圧縮

DiT

Masked Generative Framework

latent + マスク操作で6つのタスクができる

https://gyazo.com/3924343ec32e1007c875273efd669b63

1. text2music

2. カバー

3. Repainting (inpainting)

4. トラック抽出

音源から特定の音(e.g. ボーカル、ドラム)だけ取り出す

5. Layering

既存のトラックに音を足す

6. Completion

短いモチーフからアレンジを加えて曲を仕上げる

言語モデル

ACE-Step 1.5は、音のレンダリングはDiT、プロンプト整形＋設計図づくりは言語モデルと役割分担をしている

Composer Agent (Qwen LMベースの作曲エージェント)が、ユーザーの曖昧な指示をYAML形式のメタデータ（BPM / key / duration / structure…）に書き換える

https://github.com/Comfy-Org/ComfyUI/blob/855849c6588180fec88186127aae1a3299387fa6/comfy/text_encoders/ace15.py#L4ComfyUIでは多分やってないnomadoor.icon

設定したパラメータを直接テンプレ文字列にしている

前